주연 배우의 연령대와 시청률의 상관관계

이전 데이터스토리의 확장입니다.


개요

이전 스토리에서 21년 드라마의 경우에는
출연 배우의 연령대가 20대이면 낮은 시청률을 보인다는 결론을 내렸다.

이번에는 16년도 이후로 드라마의 수도 늘리고,
큰 비중을 차지하지 않는 조연들은 제외하고 주연들의 연령대로만 상관관계를 보고자 한다.


데이터

배우들의 나이

배우들의 출생년도를 통해서 현재 나이를 구했다. ( 한국 나이 )

csv파일로 불러온 데이터를 간략히 보자.

배우들의 주·조연 정보

mongodb에 있는 주조연 정보와 몇몇 정보들을 가져온 뒤
위의 나이 데이터와 합치기 위해 데이터 프레임을 만들었다.

합체

나이 정보가 있는 age_df_check 와

주·조연 정보가 있는 m_df를 pandas 라이브러리에 있는 merge함수를 써서 병합했다. (합체)

merged_df = pd.merge(age_df_check,m_df, how='outer',on=['제목','배우','배우url'])
merged_df.dropna(inplace=True)

main_df = merged_df.query("주조연=='주연'")
main_df.reset_index(inplace=True)
main_df.drop(columns='index')

드라마별 주연들의 연령대

코드보기를 해야 볼 수 있는 기나긴 코드를 거쳐서 다음과 같이 만들었다.


과정을 설명해 보자면

mongodb에 있는 드라마의 제목, 시청률 등의 정보를 가져오고

위에서 병합한 데이터프레임에서 나이에 대한 column의 평균, 최대값, 표준편차 등을 구해서 새로운 데이터 프레임을 만들었다.

시각화

해당 데이터 프레임을 지상파와 케이블로 나누어
x축은 주연들의 평균 나이
y축은 드라마의 평균 시청률로 설정하고 그래프를 그렸다.

20~50대 사이에 연령대가 골고루 분포해 있고,

시청률 또한 골고루 분포 되어있다.

별다른 특이한점은 없는데,

한가지 보이는건 KBS1을 제외한 방송사에서 시청률 상위권 드라마의 연령대는 '30 ~ 50대' 라는 점이다.


결론

이전 스토리의 결론이었던

출연 배우들의 연령대가 20대가 주 라면, 시청률이 낮을 수 있다라는 결론은 21년도에만 적용이 되었다

2016년 이후 드라마의 주연 평균 나이를 구했을 때

어떤 뚜렷한 관계를 발견 할 수 없었다.

하지만 시청률과 주연배우 나이 평균의 상관관계 놓치지 않을거다.

다음 스토리에서는 연도별로 나누어서 상관관계를 살펴보자